我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
由于学习过程中缺乏安全保证,在网络物理系统中使用加固学习(RL)是具有挑战性的。尽管有各种建议在学习过程中减少不希望的行为,但这些技术中的大多数都需要先前的系统知识,并且其适用性是有限的。本文旨在减少学习过程中不希望的行为,而无需任何先前的系统知识。我们提出动态屏蔽:基于自动机学习的基于模型的安全RL技术的扩展。动态屏蔽技术使用RPNI算法的变体和RL平行构建近似系统模型,并由于学习模型构建的屏蔽而抑制了不希望的探索。通过这种组合,在代理商体验他们之前,可以预见潜在的不安全行动。实验表明,我们的动态盾牌可显着减少训练过程中不希望的事件的数量。
translated by 谷歌翻译
在本文中,我们通过使用实例分割来生成更尖锐的注意图以进行动作识别,提出了注意分支网络(ABN)的扩展。视觉解释的方法(例如Grad-CAM)通常会产生模糊的地图,这些图对人类的理解不是直观的,尤其是在识别视频中人们的行为时。我们提出的方法ABN通过引入新的面膜丢失来解决此问题,该掩模损失使生成的注意图接近实例分割结果。此外,引入了PC丢失和多个注意图,以增强地图的清晰度并提高分类的性能。UCF101和SSV2的实验结果表明,通过所提出的方法生成的地图在定性和定量上比原始ABN的图更清晰。
translated by 谷歌翻译
在城市地区,交通拥堵是一个严重的问题。动态拥堵定价是消除战略规模交通拥堵的有用计划之一。但是,实际上,理论上很难或不可能确定最佳的动态拥堵定价,因为道路网络通常很大且复杂,而且道路使用者的行为尚不确定。为了解决这一挑战,这项工作提出了一种使用深度强化学习(DRL)的动态拥塞定价方法。它旨在通过利用深度强化学习的数据驱动性质来基于一般大规模道路网络中可观察到的数据来消除交通拥堵。该方法的新元素之一是分布式和合作学习方案。具体而言,DRL是通过空间分布的方式实现的,DRL代理之间的合作是由我们称为空间共享奖励和时间切换学习的新颖技术建立的。它可以在大规模网络中快速且计算高效的学习。使用SIOUX FALLS网络的数值实验表明,由于新的学习方案,该方法效果很好。
translated by 谷歌翻译
深度学习模型容易受到对抗性例子的影响,用于产生此类示例的对抗性攻击引起了相当大的研究兴趣。尽管基于最陡峭下降的现有方法已经取得了很高的攻击成功率,但条件不足的问题偶尔会降低其性能。为了解决此限制,我们利用了对这种类型问题有效的共轭梯度(CG)方法,并提出了一种受CG方法启发的新型攻击算法,称为自动结合梯度(ACG)攻击。在最新的健壮模型上进行的大规模评估实验的结果表明,对于大多数模型而言,ACG能够找到比现有SOTA算法自动PGD(APGD)更少迭代的对抗性示例。我们研究了ACG和APGD在多元化和强化方面的搜索性能差异,并定义了一种称为多样性指数(DI)的度量,以量化多样性的程度。从使用该指数对多样性的分析中,我们表明对所提出方法的更多样化的搜索显着提高了其攻击成功率。
translated by 谷歌翻译
在最近的地理空间研究中,通过自我监督学习建模大规模人类流动性数据的重要性与使用大型语料库的自我监督方法驱动的自然语言处理的进展并行。然而,已经有很多可行的方法适用于地理空间序列建模本身,似乎在评估方面似乎是改进的空间,特别是如何测量生成和参考序列之间的相似性。在这项工作中,我们提出了一种新颖的相似性测量,Geo-Bleu,这在地理空间序列建模和生成的背景下可能特别有用。顾名思义,这项工作是基于Bleu,是机器翻译研究中最受欢迎的措施之一,同时引入了空间接近N-Gram的想法。我们将此措施与已建立的基线进行比较,动态时间翘曲,将其应用于实际生成的地理空间序列。使用众群注释数据,关于从12,000例患者收集的地理空间序列之间的相似性,我们定量和定性地显示了所提出的方法的优势。
translated by 谷歌翻译
科学和工程中的复杂过程通常被制定为多阶段决策问题。在本文中,我们考虑了一种称为级联过程的多级决策过程。级联过程是一个多级过程,其中一个级的输出用作下一阶段的输入。当每个阶段的成本昂贵时,难以详尽地搜索每个阶段的最佳可控参数。为了解决这个问题,我们将级联过程的优化作为贝叶斯优化框架的延伸,提出了两种类型的采集功能(AFS),基于可靠的间隔和预期的改进。我们调查所提出的AFS的理论特性,并通过数值实验证明其有效性。此外,我们考虑一个被称为悬架设置的延伸,其中我们被允许在多阶段决策过程中暂停级联过程,这些过程经常出现在实际问题中。我们在太阳能电池模拟器的优化问题中应用提出的方法,这是本研究的动机。
translated by 谷歌翻译
我们提出了一种新颖的方法,可以在没有直接监督或对困难的注释的情况下确定视觉问题回答(VQA)的难度。先前的工作已经考虑了人类注释者的基础答案的多样性。相反,我们根据多个不同VQA模型的行为分析了视觉问题的难度。我们建议通过三个不同的模型获得预测的答案分布的熵值:一种基线方法,该方法将作为输入图像和问题采用,以及两个仅作为输入图像和仅提出问题的变体。我们使用简单的K-均值来聚集VQA V2验证集的视觉问题。然后,我们使用最先进的方法来确定每个集群的答案分布的准确性和熵。提出的方法的一个好处是,不需要对难度的注释,因为每个集群的准确性反映了属于它的视觉问题的难度。我们的方法可以识别出难以通过最新方法正确回答的困难视觉问题的集群。对VQA V2数据集的详细分析表明,1)所有方法在最困难的群集上表现出较差的性能(大约10 \%精度),2)随着群集难度的增加,不同方法预测的答案开始差异,3 )聚类熵的值与群集精度高度相关。我们表明,我们的方法具有能够在没有地面真相的情况下评估视觉问题的难度(\ ie,VQA V2的测试集),通过将它们分配给其中一个簇来评估视觉问题的难度。我们希望这可以刺激研究和新算法的新方向发展。
translated by 谷歌翻译
We propose a classical-quantum hybrid algorithm for machine learning on near-term quantum processors, which we call quantum circuit learning. A quantum circuit driven by our framework learns a given task by tuning parameters implemented on it. The iterative optimization of the parameters allows us to circumvent the high-depth circuit. Theoretical investigation shows that a quantum circuit can approximate nonlinear functions, which is further confirmed by numerical simulations. Hybridizing a low-depth quantum circuit and a classical computer for machine learning, the proposed framework paves the way toward applications of near-term quantum devices for quantum machine learning.
translated by 谷歌翻译